3 research outputs found

    Methoden des Data-Minings zur Plagiatanalyse studentischer Abschlussarbeiten

    Get PDF
    Bestehende AnsĂ€tze der automatisierten Plagiatanalyse nutzen umfangreiche und pflegeaufwĂ€ndige Referenzkorpora oder greifen ausschließlich auf die im Untersuchungsobjekt enthaltenen Informationen zurĂŒck. Die Nutzung externer Daten fĂŒhrt in der Regel zu besseren Analyseergebnissen (vgl. [Tschuggnall 2014, 8]). In der vorliegenden Arbeit wurde ein extrinsisches Verfahren zur Plagiatanalyse studentischer Abschlussarbeiten entwickelt und evaluiert, welches einen begrenzten Trainingsdatensatz als Referenzkorpus nutzt. Das genannte Verfahren greift hierbei auf die Methoden der Dokumenttypklassifikation und der Stilometrie zurĂŒck. Entspricht ein Abschnitt des Eingabedokuments nicht dem durchschnittlichen Schreibstil einer studentischen Abschlussarbeit, so wird dieser als potentielles Plagiat markiert. Anhand verschiedener Evaluationsschritte konnte gezeigt werden, dass das Verfahren prinzipiell fĂŒr die Plagiatanalyse studentischer Abschlussarbeiten geeignet ist. Im simulierten Anwendungskontext konnten 71,03 % der Segmente aus Bachelor- und Masterarbeiten sowie 53,62 % der Segmente aus FachbĂŒchern, Fachartikeln und Wikipediaartikeln korrekt eingeordnet werden. Der erreichte F1-Wert entspricht der Performanz intrinsischer Verfahren. Der erzielte Recall-Wert ist hierbei wesentlich höher. Die aus den Trainingskorpora extrahierten features wurden als ARFF-Dateien zur VerfĂŒgung gestellt

    Methoden des Data-Minings zur Plagiatanalyse studentischer Abschlussarbeiten

    No full text
    Bestehende AnsĂ€tze der automatisierten Plagiatanalyse nutzen umfangreiche und pflegeaufwĂ€ndige Referenzkorpora oder greifen ausschließlich auf die im Untersuchungsobjekt enthaltenen Informationen zurĂŒck. Die Nutzung externer Daten fĂŒhrt in der Regel zu besseren Analyseergebnissen (vgl. [Tschuggnall 2014, 8]). In der vorliegenden Arbeit wurde ein extrinsisches Verfahren zur Plagiatanalyse studentischer Abschlussarbeiten entwickelt und evaluiert, welches einen begrenzten Trainingsdatensatz als Referenzkorpus nutzt. Das genannte Verfahren greift hierbei auf die Methoden der Dokumenttypklassifikation und der Stilometrie zurĂŒck. Entspricht ein Abschnitt des Eingabedokuments nicht dem durchschnittlichen Schreibstil einer studentischen Abschlussarbeit, so wird dieser als potentielles Plagiat markiert. Anhand verschiedener Evaluationsschritte konnte gezeigt werden, dass das Verfahren prinzipiell fĂŒr die Plagiatanalyse studentischer Abschlussarbeiten geeignet ist. Im simulierten Anwendungskontext konnten 71,03 % der Segmente aus Bachelor- und Masterarbeiten sowie 53,62 % der Segmente aus FachbĂŒchern, Fachartikeln und Wikipediaartikeln korrekt eingeordnet werden. Der erreichte F1-Wert entspricht der Performanz intrinsischer Verfahren. Der erzielte Recall-Wert ist hierbei wesentlich höher. Die aus den Trainingskorpora extrahierten features wurden als ARFF-Dateien zur VerfĂŒgung gestellt

    Methoden des Data-Minings zur Plagiatanalyse studentischer Abschlussarbeiten

    Get PDF
    Bestehende AnsĂ€tze der automatisierten Plagiatanalyse nutzen umfangreiche und pflegeaufwĂ€ndige Referenzkorpora oder greifen ausschließlich auf die im Untersuchungsobjekt enthaltenen Informationen zurĂŒck. Die Nutzung externer Daten fĂŒhrt in der Regel zu besseren Analyseergebnissen (vgl. [Tschuggnall 2014, 8]). In der vorliegenden Arbeit wurde ein extrinsisches Verfahren zur Plagiatanalyse studentischer Abschlussarbeiten entwickelt und evaluiert, welches einen begrenzten Trainingsdatensatz als Referenzkorpus nutzt. Das genannte Verfahren greift hierbei auf die Methoden der Dokumenttypklassifikation und der Stilometrie zurĂŒck. Entspricht ein Abschnitt des Eingabedokuments nicht dem durchschnittlichen Schreibstil einer studentischen Abschlussarbeit, so wird dieser als potentielles Plagiat markiert. Anhand verschiedener Evaluationsschritte konnte gezeigt werden, dass das Verfahren prinzipiell fĂŒr die Plagiatanalyse studentischer Abschlussarbeiten geeignet ist. Im simulierten Anwendungskontext konnten 71,03 % der Segmente aus Bachelor- und Masterarbeiten sowie 53,62 % der Segmente aus FachbĂŒchern, Fachartikeln und Wikipediaartikeln korrekt eingeordnet werden. Der erreichte F1-Wert entspricht der Performanz intrinsischer Verfahren. Der erzielte Recall-Wert ist hierbei wesentlich höher. Die aus den Trainingskorpora extrahierten features wurden als ARFF-Dateien zur VerfĂŒgung gestellt
    corecore